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" Verfahren und Anordnung sowie Computerprogramm mit Programmcode-Mitteln 
und Computerprogramm-Produkt zur Analyse von gemass einer 
Datenbanksstruktur strukturierten nutzdaten". 

Beschreibung 

Verfahren und Anordnung sowie Computerprogramm mit Programm- 
code-Mitteln und Computerprogramm-Produkt zur Analyse von ge- 
5 maii einer Datenbankstruktur strukturierten Nutzdaten 

Die Erfindung betrifft eine Analyse von gemafi einer Daten- 
bankstruktur strukturierten Nutzdaten, wie beispielsweise 
Kunden- oder Produktdaten eines Unternehmens . 

Fast jeder Vorgang in einem Unternehmen, wie jeder Kontakt 
des Unternehmens mit einem Kunden oder jeder legist ische Vor- 
gang innerhalb eines Unternehmens, beginnend bei einer Be- 
stellung eines Produkts bis hin zu einer Auslieferung des 
fertigen Produkts, wird heute elektronisch unterstutzt durch- 
gefuhrt bzw. kontrolliert und gesteuert. 

Dabei werden systematisch Daten, beispielsweise Kundendaten 
oder Produktdaten, erfasst und protokolliert, die Basis fur 
20 okonomische, betriebswirtschaf tliche und/oder marktstrategi- 
sche Analysen sind, mit welchen die Daten in verwertbare oko^ 
nomische, betriebswirtschaf tliche und/oder marktstrategische 
Erkenntnisse umgesetzt werden. 

25 Wegen ihrer okonomischen, betriebswirt schaf tlichen und/oder 
marktstrategischen Bedeutung stellen diese Unternehmensdaten 
fur die Unternehmen einen bedeutenden Vermogensgegenstand 
dar. Demzufolge unternehmen die Unternehmen grofie Anstrengun- 
gen bei der Erfassung und der Analyse dieser Daten. 

30 

Fur die Erfassung solcher Unternehmensdaten stehen verschie- 
dene, allgemein bekannte Systeme zur Verfugung, wie bei- 
spielsweise Customer Relationship Management Systeme (CRM) 
[1], Supply Chain Management Systeme (SCM) [2] oder Data Wa- 
35 rehouses [3] . 
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Nach der Erfassung werden die Daten meist in Datenbanken ab- 
gelegt und entsprechend strukturiert gespeichert. In der Re- 
gel werden dabei Datensatze Di= (Ai, Bi, Ci, . ..) gebildet, wo- 
bei der Index i den jeweiligen Datensatz Di bezeichnet. 

5 

Jeder Datensatz Di reprasentiert ein bestimmtes Objekt aus 
einer Gruppe von Objekt en, beispielsweise einen bestimmten 
Kunden aus alien erfassten Kunden eines Unternehmens oder ein 
bestimmtes Produkt aus einer Produktlinie eines Unternehmens. 

10 

Jeder Datensatz umfasst dabei eine vorgebbare Anzahl von Ein- 
tragen, Ai, Bi, Ci, . .., die einzelnen erf assten Daten, mit 
Kategorien bzw. Attributen A, B, C, .... Diese Kategorien 
bzw. Attribute reprasentieren Eigenschaf ten einer Objektgrup- 
15 pe, wie Alter (A) , Einkommen (B) , erworbenes Produkt (C) , ... 
. Die Eintrage Ai, Bi, Ci, ... zu den jeweiligen Kategorien 
A, B, C, ... konnen dabei nummerischer oder semantischer Art 
sein. 

20 Fur die Analyse solcher Unternehmensdaten werden statistische 
Verfahren, sogenannte Data Mining Verfahren [4], [10] , [11] , 
[12], verwendet. Viele dieser Data Mining Verfahren bauen da- 
bei auf einem statischen Framework auf, d.h. sie sind in ei- 
ner statistischen Sprache formuliert. 

25 

Ein hinlanglich bekanntes und haufig eingesetztes Data Mining 
Verfahren ist ein sogenannter Entscheidungsbaum [5] . 

Weitere bekannte und verwendete Data Mining Verfahren sind 
30 sogenannte Clustering Verfahren [6] oder Assoziationsregeln 
(Association Rules) [9] . 

Nachteilig bei vielen der bekannten und genannten Analysever- 
fahren ist, dass sie bei der Analyse grofier Datenmengen nur 
3 5 unzureichend anwendbar sind. In der Regel ist dort namlich 

ein einmaliger oder mehrmaliger Zugriff auf den gesamten, zu 
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analysierenden Datenbestand, welcher beispielsweise in einer 
Datenbank gespeichert ist, notwendig. 

Bei groBen Datenmengen fiihrt dies zu langen Zugrif f szeiten, 
zu langen Rechen- und Antwortzeiten und bedingt dadurch eine 
schlechte Perf ormanz . Weiter ist auch eine hone Rechenleis- 
tung bzw. Rechenkapazitat von N5ten. 

Aus [7] ist eine Ermittlung eines gemeinsamen Wahrscheinlich- 
keitsmodells P (A, B, C, X) fUr eine Datenstruktur (A, B, 

C, ...) basierend auf einer versteckten Variable X bekannt . 

Aus [8] ist eine Ermittlung eines gemeinsamen Wahrscheinlich- 
keitsmodells P (A, B, C, ...) fur eine Datenstruktur (A, B, C, 
...) basierend auf ein Strukturlernen bekannt. 

Der Erfindung liegt die Aufgabe zugrunde, ein Analyseverf ah- 
ren zur Analyse strukturierter Nutzdaten anzugeben, welches 
auch bei groBen Nutzdatenmengen anwendbar ist und auch dort 
eine hohe Perf ormanz aufweist. 

Diese Aufgabe wird durch das Verfahren und die Anordnung so- 
wie durch das Computerprogramm mit Programmcode-Mitteln und 
das Computerprogramm-Produkt zur Analyse von gemaB einer Da- 
tenbankstruktur strukturierten Nutzdaten mit den Merkmalen 
gemaB dem jeweiligen unabhangigen Patentanspruch gelost. 

Bei dem Verfahren zur Analyse von gemali einer Datenbankstruk- 
tur strukturierten Nutzdaten wird zuerst ein gemeinsames sta- 
tistisches Wahrscheinlichkeitsmodell fur die gemali der Daten- 
bankstruktur strukturierten Nutzdaten ermittelt. 
Anschlieliend werden die gemali der Datenbankstruktur struktu- 
rierten Nutzdaten unter Verwendung eines statistischen Analy- 
severf ahrens analysiert, wobei das bei der Analyse verwendete 
statistische Analyseverf ahren auf das gemeinsame statistische 
Wahrscheinlichkeitsmodell angewendet wird, nicht wie iiblich 
unmittelbar auf die Ausgangsdaten. 
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Die Anordnung zur Analyse von gemafi einer Datenbankstruktur 
strukturierten Nutzdaten weist auf : 

- eine Modellierungseinheit, mit welcher ein gemeinsames 
statistisches Wahrscheinlichkeitsmodell fur die gemafi der 
Datenbankstruktur strukturierten Nutzdaten ermittelbar 
ist, sowie 

- eine Analyseeinheit , mit welcher die gemafi der Datenbank- 
struktur strukturierten Nutzdaten unter Verwendung eines 
statistischen Analyseverf ahrens derart analysierbar sind, 
dass das bei der Analyse verwendete statistische Analyse- 
verfahren auf das gemeinsame statistische Wahrscheinlich- 
keitsmodell angewendet wird. 

Anschaulich gesehen basiert die Erfindung auf einer zweistu- 
figen Vorgehensweise . 

Auszugehen ist zunachst von vorgebbaren, gemafi einer Daten- 
bankstruktur strukturierten Nutzdaten. Dabei unter einer der- 
artigen datenbankgemafien Strukturierung zu verstehen, dass 
den Nutzdaten eine ubergeordnete feste Struktur zugrunde 
liegt, beispielsweise jeweils gleich strukturierte Datensatze 
(Ai, Bi, Ci, ...) mit gleichen Eintragskategorien A, B, C, 
Derartige Strukturen sind allgemein bekannt. 

Aus diesen zu analysierenden, gemafi einer Datenbankstruktur 
strukturierten Nutzdaten wird ein gemeinsames, zweckunabhan- 
giges Wahrscheinlichkeitsmodell, wie beispielsweise in [7], 
[8] beschrieben, gebildet. 

Dieses stellt ein allgemeines, vollstandiges und genaues Ab- 
bild einer Statistik der Datenstruktur der strukturierten 
Nutzdaten dar („Analytisches Datenbank-Abbild" ) . Ferner ist 
es eine hochkomprimierte Form eines Wissens iiber die Nutzda- 
ten. 
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Das allgemeine Abbild kann dann nachfolgend als Grundlage fur 
die Analyse durch die statistischen Verfahren verwendet wer- 
den. Diese greifen dann nicht mehr auf den gesamten Nutzda- 
tenbestand bzw. auf die einzelnen Nutzdaten zu, sondern nut- 
5 zen das erstellte statistische Abbild, d.h. das gemeinsame 
Wahrscheinlichkeitsmodell, ftir die Analyse. 

Dadurch konnen Zugriffs-, Rechen- und Antwortzeiten bei der 
Analyse reduziert und damit die Performanz gesteigert werden. 

10 

Das erf indungsgemafie Computerprogramm mit Programmcode- 
Mitteln ist eingerichtet , urn alle Schritte gemali dem erfin- 
dungsgemaiien Analyseverf ahren durchzuf iihren, wenn das Pro- 
gramm auf einem Computer ausgefiihrt wird. 

15 

Das Computerprogramm-Produkt mit auf einem maschinenlesbaren 
Trager gespeicherten Programmcode-Mitteln ist eingerichtet , 
urn alle Schritte gemaB dem erf indungsgemafien Analyseverf ahren 
durchzufuhren, wenn das Programm auf einem Computer ausge- 
20 fuhrt wird. 

Die Anordnung sowie das Computerprogramm mit Programmcode- 
Mitteln, eingerichtet urn alle Schritte gemafi dem erfinderi- 
schen Analyseverf ahren durchzufuhren, wenn das Programm auf 

25 einem Computer ausgefiihrt wird, sowie das Computerprogramm- 
Produkt mit auf einem maschinenlesbaren Trager gespeicherten 
Programmcode-Mitteln, eingerichtet urn alle Schritte gemali dem 
erf inderischen Analyseverf ahren durchzufuhren, wenn das Pro- 
gramm auf einem Computer ausgefiihrt wird, sind insbesondere 

30 geeignet zur Durchfiihrung des erf indungsgemafien Analysever- 
fahrens oder einer seiner nachfolgend erlauterten Weiterbil- 
dungen. 

Bevorzugte Weiterbildungen der Erfindung ergeben sich aus den 
35 abhangigen Anspruchen. 
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Die im weiteren beschriebenen Weiterbildungen beziehen sich 
sowohl auf die Verfahren als auch auf die Anordnung . 

Die Erfindung und die im weiteren beschriebenen Weiterbildun- 
gen konnen sowohl in Software als auch in Hardware, bei- 
spielsweise unter Verwendung einer speziellen elektrischen 
Schaltung, realisiert werden. 

Ferner ist eine Realisierung der Erfindung oder einer im wei- 
teren beschriebenen Weiterbildung moglich durch ein computer- 
lesbares Speichermedium, auf welchem das Computerprogramm mit 
Programmcode-Mitteln gespeichert ist, welches die Erfindung 
oder Weiterbildung ausfuhrt. 

Auch kann die Erfindung oder jede im weiteren beschriebene 
Weiterbildung durch ein Computerprogrammerzeugnis realisiert 
sein, welches ein Speichermedium aufweist, auf welchem das 
Computerprogramm mit Programmcode-Mitteln gespeichert ist, 
welches die Erfindung oder Weiterbildung ausfuhrt. 

In einer Weiterbildung werden in Nutzdatensatzen strukturier- 
te Nutzdaten verwendet, beispielsweise Nutzdatensatze aus ei- 
ner Datenbank. Dabei reprasentiert jeder Nutzdatensatz ein 
bestimmtes Objekt aus einer Gruppe von Objekten. Die dem je- 
weiligen Nutzdatensatz zugehorigen Nutzdaten beschreiben da- 
bei Eigenschaften des jeweiligen Objekts. 

Fur die Ermittlung des gemeinsamen statistischen Wahrschein- 
lichkeitsmodell konnen statistische Verfahren basierend auf 
einer versteckten Variable [7] oder Verfahren basierend auf 
ein Strukturlernen [8] verwendet werden. Auch eine Kombinati 
on beider Verfahren ist moglich. 

Ferner ist es zweckmaMg, dass das statistische Analysever- 
fahren derart auf das gemeinsame statistische Wahrscheinlich 
keitsmodell angewendet wird, dass eine gemeinsame Wahrschein 
lichkeit als Eingangsgrofie fur das statistische Analysever- 
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fahren verwendet wird. Die gemeinsame Wahrscheinlichkeit er- 
gibt sich unmittelbar aus dem gemeinsamen Wahrscheinlich- 
keitsmodell. Dadurch lassen sich unnotige Zwischenschritte 
vermeiden, die Rechenzeit kosten und Antwortzeiten verlan- 
gern. 

Als statistisches Analyseverf ahren kann ein Verfahren auf Ba- 
sis eines Data Mining Verfahrens [4], [10], [11], [12] ver- 
wendet wird, beispielsweise ein Clustering Verfahren [5] oder 
ein Entscheidungsbaum [6] oder Assoziationsregeln [9] . 

Bei der Analyse unter Verwendung des statistischen Analyse- 
verfahrens ist es mbglich, Abhangigkeiten zwischen den Nutz- 
daten und/oder deren Signif ikanzen basierend auf einem sta- 
tistischen Test zu ermitteln. Dies kann wegen der hochkompri- 
mierten Form der Nutzdaten, d.h. des gemeinsamen Wahrschein- 
lichkeit smodells, interaktiv und sehr effizient erfolgen. 

Ferner ist es sinnvoll, die Ermittlung des gemeinsamen sta- 
tistischen Wahrscheinlichkeitsmodells und die Analyse des ge- 
meinsamen statistischen Wahrscheinlichkeitsmodell durch das 
statistische Analyseverf ahren zeit- und ortsverschieden 
durchzuf uhren . 

So kann beispielsweise das Analytische Datenbank-Abbild, d.h 
das gemeinsame Wahrscheinlichkeitsmodell, in vorgebbaren 
zeitlichen Intervallen, wie taglich oder wdchentlich, neu ge 
bildet werden. Die Bildung kann nachts oder am Wochenende er 
folgen. Das vollstandige Analytische-Datenbank-Abbild steht 
dann bei Bedarf zur Verfiigung, urn Analysen erheblich zu be- 
schleunigen. 

Die Nutzdaten konnen aus verschiedenen Datenquellen bezogen 
werden. Am einfachsten ist der Bezug der Nutzdaten aus einer 
Datenbank, in welcher die Nutzdaten gespeichert sind und von 
welcher sie ausgelesen werden. 
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Die Erfindung ist wegen der durch sie erreichbaren Performanz 
bei der Analyse von Daten insbesondere dort geeignet, wo gro- 
fie Datenmengen zu verarbeiten bzw. zu analysieren sind, wie 
im Bereich eines Customer Relationship Management (CRM) [1] 
oder eines Supply Chain Management [2] oder eines Data Ware- 
house (DW) [3] . 

Im Bereich CMR kann eine Weiterbildung beispielsweise dazu 
eingesetzt werden, urn Kundendaten zu analysieren. In diesem 
Fall ist das Objekt ein Kunde, welcher durch mindestens zwei 
der folgenden Eigenschaften, Alter, Einkommen, erworbenes 
Produkt, Datum des Erwerbs, Haufigkeit von Kaufen, beschrie- 
ben wird. Dadurch lassen sich fur Market ingabteilungen emi- 
nent wichtige Fragestellungen losen, wie ein Kundenverhalten 
bestimmter Kundengruppen . Basierend darauf lassen sich ge- 
zielter Zielgruppen bei einer Akquisition von Kunden bestim- 
men, fur bestimmte Produkte und Marketingkampagnen sinnvoller 
Kundengruppen auswahlen und Kunden allgemein vorausschauender 
bedienen. 

Ein Ausfiihrungsbeispiel der Erfindung ist in Figuren darge- 
stellt und wird im weiteren erlautert. 

Es zeigen 

Figur 1 Skizze, die schematisch eine Funktionsweise eines 
Analysesystems zur Analyse von Kundendaten gemaft 
einem Ausf Uhrungsbeispiel zeigt; 

Figuren 2a bis g Skizzen, die Analyseergebnisse eines Ana- 
lysesystems zur Analyse von Kundendaten gemaB einem 
Ausfiihrungsbeispiel zeigen. 

Ausf uhrungsbeispiel : 

Analysesystem zur Analyse eines Kundenverhaltens bei einer 
Bank basierend auf einem Customer Relationship Management 
System 
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Gegenstand des Ausfiihrungsbeispiels 1st ein Analysesystem zur 
Analyse von Kundendaten einer Bank. 

Vorwegzuschicken 1st, dass das im Folgende beschriebene Ana- 
lysesystem nicht nur bei Banken, sondern auch bei beliebigen 
Unternehmen zur Analyse von entsprechenden Unternehmensdaten 
einsetzbar ist, wie beispielsweise bei Warenhauser oder pro- 
duzierenden Unternehmen. 

Funktionsweise des Analysesystems (Fig.l) 

Fig.l zeigt schematisch die Funktionsweise 100 des Analyse- 
systems zur Analyse der Bankkundendaten 110. 

Die Funktionsweise 100 teilt sich auf in eine Wissensgewin- 
nung 101 und eine Umsetzung des Wissens in eine intelligente 
Bedienung der Bankkunden 102. 

Grofie und damit schwer handhabbare Mengen von Kundendaten 110 
werden zunachst zu einem statistischen Modell 112, einem ge- 
meinsamen Wahrscheinlichkeitsmodell, des Kundenverhaltens 
kondensiert 111. 

Das verwendete gemeinsame Wahrscheinlichkeitsmodell 112 ist 
eines auf der Basis einer versteckten Variablen. Grundlagen 
dazu sind in [7] beschrieben. 

Anzumerken ist, dass auch andere Arten von gemeinsamen Wahr- 
scheinlichkeitsmodellen verwendet werden konnen, wie bei- 
spielsweise solche auf der Basis von Strukturlernen [8]. 

An Hand des gemeinsamen Wahrscheinlichkeitsmodells 112 lassen 
sich Eigenschaften der Kunden und insbesondere deren Verhal- 
ten iiber die Zeit sehr viel effizienter und flexibler explo- 
rieren als an Hand der Ausgangsdaten. 
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Dazu werden statist ische Verfahren 120, im allgemeinen Data 
Mining Verfahren und hier in diesem Fall ein Entscheidungs- 
baum, verwendet, welche bzw. welcher auf das statistische Mo- 
dell aufsetzen bzw. aufsetzt. 

Anzumerken ist, dass auch andere Data Mining Verfahren ver- 
wendet werden konnen, wie beispielsweise Clustering Verfahren 
Oder Assoziations-Regeln. 

Grundlagen von Data Mining Verfahren sind in [4], [10], [11], 
[12], eines Entscheidungsbaums in [6] und von Clustering Ver- 
fahren in [5] beschrieben. 

Ermoglicht wird die Kopplung dadurch, dass die Data Mining 
Verfahren bzw. der Entscheidungsbaum 120 auf einem statisti- 
schen Framework aufbauen bzw. aufbaut und damit die gleiche 
statistischen Begriffe bzw. die gleiche statistische Sprache 
wie das gemeinsame Wahrscheinlichkeitsmodell 112 benutzt. 

Wichtige Fragestellungen (vgl. Figuren 2) konnen anhand des 
Entscheidungsbaums 12 0 im Riickgriff auf das gemeinsame Wahr- 
scheinlichkeitsmodell 112 interaktiv beantwortet werden 140. 

Damit ist nicht nur eine quantitative (wie viel Kunden?) son- 
dern auch eine qualitative Sicht auf die Kunden (welche Sorte 
von Kunden) moglich, z.B.: 

- Wie viele und welche Qualitat von Kunden kommen uber wel- 
che Partnerschaften oder Kampagnen? Wie effizient sind 
meine WerbemaBnahmen? 

- Welche Kundenklassen mit welchen Praferenzen und Bediirf- 
nissen gibt es? Wie und wann lassen sich diese Bediirfnisse 
am besten befriedigen? 

Ergebnisse der Fragestellungen lassen sich weiterf uhrend um- 
setzen 121 in eine intelligente Bedienung der Kunden 130. 
Kundendaten ( (Fig . 1 , 110 ) 
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Die Kundendaten 110 bei dem Analysesystem werden im Rahmen 
eines Customer Relationship Management (CRM) 150 erhoben. 

Grundlagen eines CRM sind in [1] beschrieben. 

Bei dem CRM 150 werden grofte Mengen an Daten 110 iiber die 
Bankkunden aus alien Vertriebskanalen der Bank, wie direkte 
Kontakte, Web, Call Center, erfasst und gespeichert. 

Erfasst und gespeichert werden far die Kunden jeweils (soge- 
nannte Attribute A, B, C, ...) : 

- die erworbenen Bankprodukte A in der jeweiligen zeitlichen 
Reihenfolge (Al, A2, A3, ...), 

- ein zeitlicher Kaufabstand B zwischen den Erwerbszeitpunk- 
ten der erworbenen Bankprodukten (Bl-2, B2-3, B3-4, . ..), 

- ein Geburtsdatum (C) , 

- ein Einkommen (D) , 

- eine Adresse (E) , 

- der letzter Bankbesuch (F) , 

- die letze Kontobewegung (G) . 

Die Speicherung erfolgt in einer Datenbank in Form von kun- 
denspezifischen Datensatzen Di (Al, A2, Bl-2, B2-3, 

C, D, ...), wobei der Index i den jeweiligen Bankkunden i 
kennzeichnet . 

Gemeinsames Wahrscheinlichkeitsmodell (Fig.l, 112) 

Das Wissen iiber die Bankkunden, das in diesen Daten 110 ver- 
borgen liegt, wird dann zu einem Modell, dem gemeinsamen 
Wahrscheinlichkeitsmodell 112, kondensiert. 

Das verwendete gemeinsame Wahrscheinlichkeitsmodell 112 ist 
eines auf der Basis einer versteckten Variablen X. Grundlagen 
dazu sind in [7] beschrieben. 
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Geschrieben wird das gemeinsame Wahrscheinlichkeitsmodell 112 
basierend auf der versteckten Variablen X als P(A,B, C, 
X) far alle Attribute (A, B, C, . . . ) . 

Ein solches statistischen Abbild von Daten stellt eine hoch- 
komprimierte Form eines Wissens aber Kunden dar und kann ge- 
nutzt werden, urn effizient und interaktiv Abhangigkeiten zu 
explorieren 120, 140. 

An Hand des hier erstellten gemeinsamen Wahrscheinlichkeits- 
modells 112 lafit sich nun das Wissen uber die Kunden schnell 
tiber effizient abgreifen, insbesondere lassen sich Verhal- 
tensweisen der Kunden einfach und flexibel studieren, lassen 
sich typische Verhaltensmuster und Entwicklungszyklen von 
Kunden effizient und intuitiv analysieren, lassen sich typi- 
sche Kundensegmente und deren Praf erenzen sicher und eindeu- 
tig bestimmen und erkennen 120, 140. 

Ferner liefert das gemeinsame Wahrscheinlichkeitsmodell 112 
uber die beschriebene Analysefunktion hinaus schnell abrufba- 
re Prognosen Uber weiter zu erwartendes Verhalten und aktuel- 
le Bedurfnisse eines Kunden. Die Prognosen konnen weiter dazu 
genutzt werden, Kunden vorausschauend und gezielt zu bedienen 
und proaktive, personliche Angebote zu unterbreiten 130. 

Auf satz eines Entscheidungsbaums auf das gemeinsame Wahr- 
scheinlichkeitsmodell (Fig.l, 120) 

In weiterer Verwendung des gemeinsamen Wahrscheinlichkeitsmo- 
dells 112 wird der Entscheidungsbaum [6] auf das statistische 
Modell 112, das gemeinsame Wahrscheinlichkeitsmodell 112, 
aufgesetzt 120. 

Damit lassen sich beliebige Randverteilungen, wie die fur ei- 
nen ersten Split des Entscheidungsbaums, namlich P(A,X), 
P(B,X), P(C,X), und auch fur alle weiteren Splits des 

Entscheidungsbaums ermitteln. 
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Weiter lassen sich auch alle Grundwahrscheinlichkeitsvertei- 
lungen bzw. Grundwahrscheinlichkeiten P (A) , P(B), . .. und be- 
liebige bedingte Wahrscheinlichkeiten bzw. Wahrscheinlich- 
keitsverteilungen P(B|A) , P(C|A) / P(C|B), ... ermitteln. 

Aus der gemeinsamen Verteilung P(A, B, C, . .., X) basierend 
auf der versteckten (oder latenten) Variable X geht zunachst 
die gemeinsame Verteilung P(A,B, C, . ..) iiber alle Attribute 
der Kunden durch Summation uber die versteckte Variable X 
hervor . 

Strukturlernen liefert hier unmittelbar eine gemeinsame Ver- 
teilung P(A,B, C, . ..). 

Aus der gemeinsamen Verteilung lassen sich dann beliebige 
ein-dimensionale Randverteilungen (Marginale) P (A) , P(B) / 
. . . , niedrig-dimensionalere Verteilungen P (A, B) , P (B, C) , ... 
und beliebige bedingte Wahrscheinlichkeiten (ein- oder mehr- 
dimensionale) P(B|A), P(C|A) f P(A / C|B) f ... ableiten. 

Dies erfolgt im Rahmen eines Inferenzprozesses, wie in [13] 
beschrieben . 

Dabei wird nach [13] die Struktur der Modelle, beispielsweise 
welche mit einer vorgegebenen versteckten Variable oder wel- 
che, die durch Strukturlernen erzeugt wurden, oder eine Kom- 
bination der Vorgenannten, genutzt, urn notwendigen Summen li- 
ber die gemeinsame Verteilung effizient zu berechnen. 

Entscheidungsbaume werden zumeist nach einem bekannten CHAID 
oder einem bekannten CART Verfahren aufgebaut. 

Im Allgemeinen benotigt man zum Aufbau eines Entscheidungs- 
baums mit einer Zielvariablen (oder abhangigen Variablen) A 
fur den sogenannten ersten Split zunachst alle paarweisen 
Verteilungen P (A, B) , P(B,C), P(A,D), ... . 
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Eine Selektion einer Variablen aus der Menge der Variablen B, 
C, D, fur den ersten Split erfolgt dann bei fast alien 

bekannten Verfahren basierend auf einem statistischen Krite- 
rium (einem statistischen Test und Signif ikanzkriterien) ba- 
sierend auf den paarweisen Verteilungen P(A,B), P(B,C), 
P(A, D), ... und einer bekannten Anzahl an Daten. 

Wurde beispielsweise ftir den ersten Split die Variable D mit 
den beiden Werten dl und d2 gewahlt., so benotigt man ftir den 
zweiten Split bedingte, paarweise Verteilungen der Form 
P(A,B|dl), P(A,B|d2), P(A,C|dl), P(A,C|d2), ... . 

Die notwendigen Wahrscheinlichkeiten oder Verteilungen ftir 
den Aufbau des Entscheidungsbaums (bzw. als Grundlagen ftir 
die notwendigen statistischen Tests) konnen (wie ublich) aus 
den Daten oder auch aus einem moglichst genauen, im Obigen 
beschrieben Wahrscheinlichkeitsmodell (Inf erenzprozess) er- 
mittelt werden. 

Interaktive Analysen (Fig.l, 140, Fig. 2a bis 2g) 

Fig. 2a bis 2g zeigen exemplarisch einige der moglichen in- 
teraktiven Analysen 140, welche mit dem Entscheidungsbaum 120 
im Ruckgriff auf das gemeinsame Wahrscheinlichkeitsmodell 112 
durchgefuhrt werden konnen. 

Fig. 2a zeigt Wahrscheinlichkeitsverteilungen P(A1), P(A2) 
P(A3) P(A4), P(A5), P(Bl-2), P(B2-3), P(B3-4) undP(C) und 
P(D). Besondere gekennzeichnet ist P (Al= „Giro/Gehalts- 
Konto) =56, 125%. 

Fig. 2b zeigt nun bedingte Wahrscheinlichkeitsverteilungen un- 
ter der Bedingung Al= „Giro/Gehalts-Konto" , namlich P(A2|A1= 
„Giro/Gehalts-Konto" ) , P (A3 | Al- „Giro/Gehalts-Konto" ) , 
P(A4|A1- „Giro/Gehalts-Konto" ) , P(A5|A1= „Giro/Gehalts- 
Konto"), P(B1-2|A1= „Giro/Gehalts-Konto" ) , P(B2-3|Al- „Gi- 
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ro/Gehalts-Konto" ) , P(B3-4|A1= „Giro/Gehalts-Konto M ) und 
P(C|A1= „Giro/Gehalts-Konto") und P(D|A1= „Giro/Gehalts- 
Konto" ) . Besonders gekennzeichnet sind P (A2= „Versiche- 
rungspodukt |A1= „Giro/Gehalts-Konto) =29% und P (A2= „Spa- 
5 ren/Geldanlage|Al= „Giro/Gehalts-Konto) =50% . 

Fig. 2c zeigt nun bedingte Wahrscheinlichkeitsverteilungen un- 
ter den Bedingungen Al= ^iro/Gehalts-Konto" und A2= „Versi- 
cherungsprodukt" , namlich P(A3|A1= „Giro/Gehalts-Konto" , A2= 

10 „Versicherungsprodukt") , P(A4|A1= „Giro/Gehalts-Konto" , A2= 
„Versicherungsprodukt") , P(A5|A1= „Giro/Gehalts-Konto w , A2= 
„Versicherungsprodukt w ) , ... . Besonders gekennzeichnet ist 
hier P (Bl-2= „Kaufabstand zwischen erstem und zweitem Produkt 
grower. 3 Jahre|Al= „Giro/Gehalts-Konto w , A2= „Versicherungs- 

15 produkt) =85%. 

Fig. 2d zeigt weitere bedingte Wahrscheinlichkeitsverteilungen 
unter den Bedingungen Al= „Giro/Gehalts-Konto M und A2= „Spa- 
ren/Geldanlage" , namlich P(A3|A1= „Giro/Gehalts-Konto" , A2= 
20 „Sparen/Geldanlage~ ) , P(A4|A1= „Giro/Gehalts-Konto" , A2= 
„Sparen/Geldanlage w ) , P(A5|A1= „Giro/Gehalts-Konto" , A2= 
„Sparen/Geldanlage" ) , ... . Besonders gekennzeichnet sind 
hier die Wahrscheinlichkeitsverteilungen P(B1-2|A1= „Gi- 
ro/Gehalts-Konto" ,A2= „Sparen/Geldanlage" ) . 

25 

Fig.2e zeigt die Wahrscheinlichkeitsverteilungen P(A1), P(A2) 
P(A3) P(A4), P(A5), P(Bl-2), P(B2-3), P(B3-4) und P(C) und 
P(D). Besondere gekennzeichnet ist P (Al= „Giro/Gehalts- 
Konto)=56,125%. Desweiteren zeigt Fig.2e die Wahrscheinlich- 
30 keitsverteilung der versteckten Variable X, bezeichnet hier 
als Segmente, namlich P(Segmente). Besonders gekennzeichnet 
st P(Segmente=4)= 34%, was zeigt, dass 34% aller erfassten 
Bankkunden in das Segment 4 fallen. 

35 Figuren 2f und 2g zeigen wiederum die bedingte Wahrschein- 

lichkeitsverteilungen, einmal unter der Bedingung Segmente=4 
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(Fig.2f) und das andere Mai unter der Bedingung C= Geburtsda- 
tum zwischen 980 und 1990 (Fig.2g). 
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[3] Data Warehouse, erhaltlich am 31.08.2002 unter: 
http://www.data-warehouse-systeme.de/ . 
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Patent anspriiche 

1. Verfahren zur Analyse von gemafi einer Datenbankstruktur 
strukturierten Nutzdaten, 

- bei dem ein gemeinsames statistisches Wahrscheinlichkeits- 
modell fur die gemafl der Datenbankstruktur strukturierten 
Nutzdaten ermittelt wird, 

- bei dem die gemafi der Datenbankstruktur strukturierten 
Nutzdaten unter Verwendung eines statistischen Analysever- 
fahrens analysiert werden, wobei das bei der Analyse ver- 
wendete statistische Analyseverf ahren auf das gemeinsame 
statistische Wahrscheinlichkeitsmodell angewendet wird. 

2. Verfahren nach Anspruch 1, 

bei dem die gemafi der Datenbankstruktur strukturierten Nutz- 
daten in Nutzdatensatze strukturiert sind f welche Nutzdaten- 
satze jeweils ein Objekt reprasentieren, wobei .die Nutzdaten 
eines Nutzdatensatzes Eigenschaf ten des jeweiligen Objekts 
beschreiben. 

3. Verfahren nach Anspruch 1 Oder 2, 

bei dem das gemeinsame statistische Wahrscheinlichkeitsmodell 
basierend auf einer versteckten Variable ermittelt wird. 

4. Verfahren nach einem der Anspriiche 1 bis 3, 

bei dem das gemeinsame statistische Wahrscheinlichkeitsmodell 
basierend auf ein Strukturlernen ermittelt wird, 

5. Verfahren nach einem der vorangehenden Anspriiche, 

bei dem das statistische Analyseverf ahren derart auf das ge- 
meinsame statistische Wahrscheinlichkeitsmodell angewendet 
wird, dass eine gemeinsame Wahrscheinlichkeit des gemeinsamen 
Wahrscheinlichkeitsmodells als Eingangsgrolie fur das statis- 
tische Analyseverf ahren verwendet wird. 

6. Verfahren nach einem der vorangehenden Anspriiche, 
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bei dem als statistisches Analyseverfahren ein Verfahren auf 
Basis eines Data Mining Verfahrens verwendet wird. 

7. Verfahren nach Anspruch 6, 

bei dem als statistisches Analyseverfahren ein Clustering 
Verfahren verwendet wird. 

8. Verfahren nach Anspruch 6 

Bei dem als statistisches Analyseverfahren ein Verfahren be- 
kannt unter dem Namen „Assoziationsregeln" verwendet wird. 

9. Verfahren nach Anspruch 6, 

bei dem als statistisches Analyseverfahren ein Entscheidungs 
baum verwendet wird. 

10. Verfahren nach einem der vorangehenden Anspruche, 

bei dem bei der Analyse unter Verwendung des statistischen 
Analyseverfahrens Abhangigkeiten zwischen den Nutzdaten er- 
mittelt werden und/oder deren Signif ikanzen basierend auf ei 
nem statistischen Test ermittelt werden. 

11. Verfahren nach einem der vorangehenden Anspruche, 

bei dem die Ermittlung des gemeinsamen statistischen Wahr- 
scheinlichkeitsmodells und die Analyse des gemeinsamen sta- 
tistischen Wahrscheinlichkeitsmodell durch das statistische 
Analyseverfahren zeit- und ortsverschieden durchgefuhrt wer- 
den. 

12. Verfahren nach einem der vorangehenden Anspruche, 

bei dem die Nutzdaten in einer Datenbank gespeichert werden. 

13. Verfahren nach einem der Anspruche 2 bis 12, 

bei dem das Objekt ein Kunde ist, welcher durch mindestens 
zwei der folgenden Eigenschaften, Alter, Einkommen, erworbe 
nes Produkt, Datum des Erwerbs, Haufigkeit von Kaufen, be- 
schrieben wird. 
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14. Verfahren nach einem der vorangehenden Anspruche, 
eingesetzt bei dem Data Warehouse, wobei die Nutzdaten das 
Data Warehouse beschreiben. 



5 15. Verfahren nach einem der Anspruche 1 bis 13, 

eingesetzt bei einem Customer Relationship Management oder 
einem Supply Chain Management, wobei die Nutzdaten Kundenda- 
ten oder Produktdaten sind. 

10 16. Anordnung zur Analyse von gemafi einer Datenbankstruktur 
strukturierten Nutzdaten, 

- mit einer Modellierungseinheit, mit welcher ein gemeinsa- 
mes statistisches Wahrscheinlichkeitsmodell fur die gemafi 
der Datenbankstruktur strukturierten Nutzdaten ermittelbar 

15 ist, 

- mit einer Analyseeinheit, mit welcher die gemafi der Daten- 
bankstruktur strukturierten Nutzdaten unter Verwendung ei- 
nes statistischen Analyseverf ahrens derart analysierbar 
sind, dass das bei der Analyse verwendete statistische A- 

20 nalyseverfahren auf das gemeinsame statistische Wahr- 

scheinlichkeitsmodell angewendet wird. 

17. Computerprogramm-Erzeugnis, das ein computerlesbares 
Speichermedium umfasst, auf dem ein Programm gespeichert ist, 
25 das es einem Computer ermoglicht, nachdem es in einen Spei- 
cher des Computers geladen worden ist, folgende Schritte 
durchzufiihren zur Analyse von gemafi einer Datenbankstruktur 
strukturierten Nutzdaten, 

- ein gemeinsames statistisches Wahrscheinlichkeitsmodell 
30 wird fur die gemafi der Datenbankstruktur strukturierten 

Nutzdaten ermittelt, 

- die gemafi der Datenbankstruktur strukturierten Nutzdaten 
werden unter Verwendung eines statistischen Analyseverf ah- 
rens analysiert, wobei das bei der Analyse verwendete sta- 

35 tistische Analyseverf ahren auf das gemeinsame statistische 

Wahrscheinlichkeitsmodell angewendet wird. 
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18. Computerlesbares Speichermedium, auf dem ein Programm ge- 
speichert ist, das es einem Computer ermoglicht, nachdem es 
in einen Speicher des Computers geladen worden ist, folgende 
Schritte durchzuf uhren zur Analyse von gemali einer Datenbank- 
5 struktur strukturierten Nutzdaten, 

- ein gemeinsames statistisches Wahrscheinlichkeitsmodell 
wird fur die gemaii der Datenbankstruktur strukturierten 
Nutzdaten ermittelt, 

- die gemafi der Datenbankstruktur strukturierten Nutzdaten 
10 werden unter Verwendung eines statistischen Analyseverf ah- 

rens analysiert, wobei das bei der Analyse verwendete sta- 
tistische Analyseverf ahren auf das gemeinsame statistische 
Wahrscheinlichkeitsmodell angewendet wird. 

15 19. Computerprogramm mit Programmcode-Mitteln, urn alle 

Schritte gemaB Anspruch 1 durchzuf uhren, wenn das Programm 
auf einem Computer ausgefiihrt wird. 

20. Computerprogramm mit Programmcode-Mitteln gemaii Anspruch 
20 18, die auf einem computerlesbaren Datentrager gespeichert 

sind. 

21. Computerprogramm- Produkt mit auf einem maschinenlesbaren 
Trager gespeicherten Programmcode-Mitteln, urn alle Schritte 

25 gemafi Anspruch 1 durchzuf iihren, wenn das Programm auf einem 
Computer ausgefiihrt wird. 
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